确定数据集中的有意义和独立因素是一个充满挑战的学习任务,经常通过深度潜变量模型解决。可以将此任务视为保留所选属性的值的学习对称转换沿潜在维度。然而,现有方法在实施潜在空间中的不变性属性方面表现出严重的缺点。我们以一种新的方法来解决这些缺点来循环一致性。我们的方法涉及目标属性的两个单独的潜在子页和剩余的输入信息。为了强制执行潜伏空间中的不变性以及稀疏性,我们通过使用依赖属性侧信息的周期一致性约束来融合语义知识。该方法基于深度信息瓶颈,与其他方法相比,允许使用连续目标属性并提供固有的模型选择能力。我们展示了我们的方法识别出更有意义的因素的综合和分子数据,这导致稀疏和更具可解释的模型,具有改善的不变性属性。
translated by 谷歌翻译
Machine learning model development and optimisation can be a rather cumbersome and resource-intensive process. Custom models are often more difficult to build and deploy, and they require infrastructure and expertise which are often costly to acquire and maintain. Machine learning product development lifecycle must take into account the need to navigate the difficulties of developing and deploying machine learning models. evoML is an AI-powered tool that provides automated functionalities in machine learning model development, optimisation, and model code optimisation. Core functionalities of evoML include data cleaning, exploratory analysis, feature analysis and generation, model optimisation, model evaluation, model code optimisation, and model deployment. Additionally, a key feature of evoML is that it embeds code and model optimisation into the model development process, and includes multi-objective optimisation capabilities.
translated by 谷歌翻译
在一阶算法的历史中,Nesterov的加速梯度下降(NAG)是里程碑之一。但是,长期以来,加速的原因一直是一个谜。直到[Shi等,2021]中提出的高分辨率微分方程框架之前,梯度校正的存在尚未得到揭示。在本文中,我们继续研究加速现象。首先,我们基于精确的观察结果和$ L $ SMOTH功能的不等式提供了明显的简化证明。然后,提出了一个新的隐式高分辨率差分方程框架,以及相应的隐式 - 速度版本的相位空间表示和lyapunov函数,以研究迭代序列$ \ {x_k \} _的迭代序列的收敛行为{k = 0}^{\ infty} $的nag。此外,从两种类型的相空间表示形式中,我们发现梯度校正所起的作用等同于按速度隐含在梯度中包含的作用,其中唯一的区别来自迭代序列$ \ \ {y_ {y_ {k} \} _ {k = 0}^{\ infty} $由$ \ {x_k \} _ {k = 0}^{\ infty} $代替。最后,对于NAG的梯度规范最小化是否具有更快的速率$ O(1/K^3)$的开放问题,我们为证明提供了一个积极的答案。同时,为$ r> 2 $显示了目标值最小化$ o(1/k^2)$的更快的速度。
translated by 谷歌翻译
自适应梯度算法借用重球加速度的移动平均思想,以估计梯度的准确梯度矩和二阶矩,以加速收敛。然而,在理论上,在理论上,在许多经验情况下,在自适应梯度环境下,Nesterov加速度比重球加速度快的速度快得多。在这项工作中,我们提出了Adan的自适应Nesterov动量算法,以有效加快深层神经网络的训练。 Adan首先重新制定了Nesterov加速度,以开发新的Nesterov动量估计(NME)方法,该方法避免了外推点上计算梯度的额外计算和内存开销。然后,Adan采用NME来估计自适应梯度算法中梯度的一阶和二阶时刻,以进行收敛加速。此外,我们证明Adan在$ O(\ epsilon^{ - 3.5})内找到了$ \ epsilon $ - 附近的一阶固定点,$最著名的下限。广泛的实验结果表明,Adan超过了视觉变压器(VIT)和CNN上的相应SOTA优化器,并为许多流行网络设置了新的SOTA,例如Resnet,Convnext,Vit,Vit,Swin,Mae,Mae,LSTM,LSTM,Transformer-XL和BERT,以及BERT和BERT和BERT 。更令人惊讶的是,Adan可以利用SOTA优化器的一半培训成本(时代)在E.T.C. Vit和Resnet上获得更高或可比的性能,并且还显示出对大型Minibatch尺寸的宽容,例如1K到32K。我们希望Adan能够通过降低培训成本并减轻尝试各种架构的不同优化者的工程负担来为深度学习的发展做出贡献。代码将在https://github.com/sail-sg/adan上发布。
translated by 谷歌翻译
我们分析了牛顿方法的变体的性能,并通过二次正则化来解决复合凸最小化问题。在我们方法的每个步骤中,我们选择正规化参数与当前点的梯度标准的某些功率成正比。我们介绍了一个以h \ h \“第二或第三个衍生物的较旧连续性为特征的问题类别。然后,我们使用简单的自适应搜索步骤介绍该方法,允许自动调整问题类,并以最佳的全球复杂性界限,而无需知道问题的特定参数。特别是,对于Lipschitz连续第三个导数的函数类别,我们获得了全局$ o(1/k^3)$ rate,以前归因于三阶张量方法。功能是均匀凸的,我们证明我们方案的自动加速度是合理的,导致全局速率和局部超线性收敛。不同的速率(sublinear,linear和superlinear)之间的切换是自动的。同样,没有先验的先验需要了解参数。
translated by 谷歌翻译
预测量子电路的输出是一项硬计算任务,在通用量子计算机的开发中起着关键作用。在这里,我们研究了随机量子电路的输出期望值的监督学习。深层卷积神经网络(CNN)经过训练,可以使用经典模拟电路的数据库来预测单量和两数分的期望值。这些电路通过适当设计的组成门编码来表示。分析了以前看不见的电路的预测准确性,还可以与免费的IBM量子程序获得的小规模量子计算机进行比较。 CNN通常取决于电路深度,网络深度和训练集尺寸,通常优于量子设备。值得注意的是,我们的CNN被设计为可扩展。这使我们可以利用转移学习和执行外推,以比培训集中包含的电路更大。这些CNN还表现出对噪声的显着弹性,即,即使在很少的测量值中进行了(模拟)期望值的训练,它们仍然是准确的。
translated by 谷歌翻译
在本文中,我们提出了Nesterov加速改组梯度(NASG),这是一种用于凸有限和最小化问题的新算法。我们的方法将传统的Nesterov的加速动量与不同的改组抽样方案相结合。我们证明,我们的算法使用统一的改组方案提高了$ \ Mathcal {o}(1/t)$的速率,其中$ t $是时代的数量。该速率比凸状制度中的任何其他改组梯度方法要好。我们的收敛分析不需要对有限域或有界梯度条件的假设。对于随机洗牌方案,我们进一步改善了收敛性。在采用某种初始条件时,我们表明我们的方法在解决方案的小社区附近收敛得更快。数值模拟证明了我们算法的效率。
translated by 谷歌翻译
许多政府举措(例如欧盟的GDPR)正在得出结论,即现代软件系统的越来越复杂程度必须与对这些工具的影响评估的一些权利和指标形成鲜明对比,使人们能够理解和监督产出自动化决策系统。可解释的ai诞生于允许人类探索和理解复杂系统的内部工作的途径。但是,建立什么是解释和客观地评估可解释性,不是琐碎的任务。通过本文,我们提出了一种新的模型 - 不可知性的指标,以测量以客观方式测量(正确)信息的解释程度,利用普通语言哲学的特定理论模型,称为ACHINSTEIN的解释理论,通过依赖于算法实现知识图提取和信息检索的深语模型。为了了解这种度量是否实际表现为可解释性,我们已经设计了一些实验和用户研究,涉及超过160名参与者评估了使用包括人工神经网络的着名AI技术的医疗保健和金融的基于医疗保健和金融的基于医疗保健系统和treeshap。我们获得的结果非常令人鼓舞,这表明我们拟议的测量可解释程度的指标对若干情景是强大的,并且最终可以利用自动决策系统的合法影响评估。
translated by 谷歌翻译
当使用有限的阶梯尺寸\ citep {shi20211undanding}时,Nesterov的加速梯度(NAG)进行优化的性能比其连续的时间限制(无噪声动力学Langevin)更好。这项工作探讨了该现象的采样对应物,并提出了一个扩散过程,其离散化可以产生基于梯度的MCMC方法。更确切地说,我们将NAG的优化器重新制定为强烈凸功能(NAG-SC)作为无Hessian的高分辨率ODE,将其高分辨率系数更改为超参数,注入适当的噪声,并将其离散化。新的超参数的加速效应是量化的,它不是由时间响应创造的人造效应。取而代之的是,在连续动力学级别和离散算法级别上,在$ w_2 $距离中以$ W_2 $距离的加速度均已定量确定。在对数符号和多模式案例中的经验实验也证明了这一加速度。
translated by 谷歌翻译
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on blackbox models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches.
translated by 谷歌翻译